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基于 用 户 特 征 属性 的 微 博 话题 关键 用 户 挖掘 


柯 阳 ， 隋 杰 : 
(中 国 科 学 院 大 学 工程 科学 学 院 ,北京 100049) 


摘 要 : 针对 微 博 话题 存在 时 效 性 的 特征 以 及 用 户 之 间 交 互 行为 特征 ,在 经 典 PageRank 算法 的 基础 上 , 提出 基于 用 户 
交互 的 微 博 用 户 挖 据 算 法 来 有 效 挖掘 推动 微 博 话题 流行 的 关键 用 户 。 首 先 ， 介 绍 了 微 博 话题 关键 用 户 的 定义 及 其 相关 
特征 ; 其 次 ， 由 于 传统 模型 未 考虑 用 户 交 互 以 及 时 间 属 性 的 影响 ， 所 以 融合 了 时 间 属 性 以 及 用 户 之 间 交 互 特征 ， 同 时 
结合 微 博 网 络 结构 提出 了 MUR 算法 ; 最 后 ， 将 算法 与 经 典 PageRank 算法 和 TS 算法 做 了 比较 。 实 验 结 果 表 明 ， 模 型 
在 微 博 话题 用 户 的 时 效 性 、 话 题 推动 以 及 对 粉丝 的 影响 力 等 方面 表现 较 好 ， 证 明了 模型 的 合理 性 和 有 效 性 。 
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Key users mining in micro-blogging topic based on user attributes 


Ke Yang, Sui Jief 
(School of Engineering Science, University of Chinese Academy of Sciences, Beijineg 100049, China) 


Abstract: Considering the timeliness of the microblogging topic and the feature of interaction between the users, therefore, this 
paper put forward a key user’s mining algorithm based on user interaction to effectively find topic-sensitive key users. Firstly, 
this paper introduced the definition of key users in microblogging topic and its relevant characteristics. Secondly, in that the 
traditional models ignored the influence of user interaction and time attribute, this model fused the time property and the 
characteristics of interaction between the user together in the model at the first time, and the MUR algorithm was put forward 
with the combination of the microblogging network structure. Finally, it compared the algorithm with the classical PageRank 
algorithm and TS algorithm. The experimental results show that the model is more reasonable in terms of timeliness and topic 


driving, certificating the rationality and validity of the model. 
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国内 外 研究 人 员 对 关键 用 户 的 挖掘 方法 也 是 层出不穷 。 相 
关 学 者 提出 了 很 多 影响 力度 量 方法 9, 通过 比较 入 度 、 回复、 

影响 力 通 常 被 认为 是 可 以 改变 他 人 思想 和 行为 的 能 力 。 在 。 转发、 提 及 、 读 者 数量 等 指标 度量 用 户 的 影响 力 。 其 中 , Bakshy 
传播 学 理论 中 ， 有 这 样 一 种 人 被 称 为 意见 领袖 ， 在 社交 网 络 中 ” 等 个 利用 消息 扩散 的 结构 信息 预测 和 计算 用 户 的 影响 力 ， 大 
经 常 向 公众 提供 意见 和 建议 。 他 们 向 受众 传播 信息 ， 形 成 信息 。 量 实验 数据 表明 Twitter 上 的 很 多 热门 话题 都 是 由 高 影响 力 用 
的 二 级 传递 。 影 响 力 存 在 于 生活 的 方方面面 ， 其 中 一 个 例子 就 。 户 发 起 或 传播 。 赵 之 江 等 人 史 发现 社团 结构 对 于 理解 和 控制 消 
是 它 经 常 应 用 于 商业 领域 。 因此， 营销 人 员 可 以 通过 口 口 相传 电 传 播 有 重要 意义 ， 并 提出 了 一 种 基于 网 络 社团 结构 的 节点 影 
去 建立 大 规模 的 连锁 反映 ， 从 而 更 好 地 销售 产品 。 向 力度 量 方法 ， 该 方法 能 够 更 加 真实 地 挖掘 社会 关系 网 络 中 对 
微 博 是 基于 社交 关系 来 进行 信息 传播 的 媒体 平台 ， 作 为 重 ”传播 过 程 至 关 重 要 的 Hub 节点 。 毛 佳 听 等 人 口 提出 了 一 个 通 
要 的 社交 网 站 , 微 博 引发 了 众多 的 关注 和 研究 外。 在 微 博 中 , 只 ”过 预测 用 户 传播 信息 能 力 大 小 来 分 析 和 度量 用 户 社会 影响 力 的 
有 很 少 的 人 才能 成 为 话题 的 引领 者 。 统 计 显示 ， 约 有 20% 的 微 ” 方法 ， 该 方法 将 用 户 访问 微 博 的 时 间 以 及 用 户 偏好 等 行为 因素 


2 
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博 用 户 发 布 超过 76% 的 微 博 。 因 此 ， 只 有 少数 用 户 在 微 博 中 特 。 ”与 社会 网 络 结构 信息 相 结 合 , 从 而 获得 更 好 的 影响 力 估计 结果 。 
别 突出 ， 他 们 发 布 了 大 量 微 博 ， 相 比 之 下 ， 大 量 用 户 充当 了 微 在 基于 给 定 话题 的 影响 力 计算 方面 , Tang 等 人 外 提出 了 话 
博 话题 的 接收 者 。 微 博 中 的 用 户 影响 力 是 通过 影响 他 人 的 思想 。” 题 因子 图 模型 同时 支持 同 质 和 异 质 网 络 环 境 下 的 影响 力 分 析 。 

感情 、 激 励 他 人 产生 更 多 的 交互 行为 来 体现 的 。 Weng 等 人 四 提出 了 一 个 TwitterRank 算法 ， 该 算法 将 话题 相似 
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户 关系 图 中 ， 并 提出 了 


影响 力 是 一 个 快速 
计算 话题 传 


从 用 户 的 个 人 属性 来 看 ，Cha 等 人 P 
1 力 的 必要 因素 。 他 认为 真 J 
很 高 的 影响 力 ， 通 过 研 


度 融 合 到 基于 网 络 结构 的 分 析 方法 中 ， 能 够 对 不 同 话题 领域 的 
向 力 用 户 进行 排序 。Saez-Trumper 等 人 09 将 时 间 属 性 融合 到 
于 PageRank 的 排序 方法 对 特 
译 话题 的 用 户 影响 力 进行 排序 。 但 是 话题 传播 扩散 过 程 中 用 户 
兽 长 和 衰减 的 过 程 ， 因 
鼻 过 程 中 的 用 户 影响 力 。 


此 需要 融合 动态 属性 
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1.1 关键 用 户 的 定义 


在 本 文中 把 关键 ) 


户 定义 为 上 


更 多 交互 
必须 比较 


无 关 。 对 于 一 个 特定 的 i 


认为 高 入 度 并 非 是 高 


E 有 影响 力 的 用 户 在 任何 话题 上 


他 发 现 这 三 者 之 间 


向 力 的 用 户 在 任何 话题 上 都 


没有 必要 的 联系 ， 从 而 得 出 了 真正 


T 


上 


通过 产 4 


~ 


、 转 推 影响 以 及 提 太 


9] 通过 看 


通过 研究 一 系列 的 属性 打 


有 很 高 的 影响 力 的 结论 。 Pal 
征 去 找寻 微 博 中 的 权威 用 户 ， 


通过 构建 用 


7 
o 


户 影 响 力 评 价 模型 ， 最 终 产生 给 定 话题 的 权威 用 户 


企 基 于 社会 网 络 的 


会 计算 等 各 项 研究 提供 
结构 ,从 而 更 有 利于 人 们 通过 社会 网 络 到 


于 社会 网 络 融合 为 社 


传播 已 经 7 


户 行 为 数据 和 更 完整 的 网 络 
E 解 和 挖 气 人 类 社会 , 具 


有 重要 的 理论 价值 和 实践 意义 [3。 很 多 学 者 针对 社会 网 络 信息 
开展 一 些 有 意义 的 研究 ， 提 出 了 
模型 包括 独立 级 联 模型 已 枯 


一 些 知名 的 信息 传播 


生 羡 值 模型 中 。Sait 等 人 D53 针 对 


社会 网 络 中 如 何 选择 对 应 的 模 
联 模型 和 线性 阔 值 模型 基础 


做 了 深入 的 研究 ， 并 在 独立 级 


改进 方案 ， 但 是 并 没有 考 


之 间 的 交互 对 信息 传播 的 影响 ， 消 


过 程 ， 需 要 通过 传播 模型 
寺 客 和 新 闻 文 章 的 传播 研究 跟踪 传播 路 径 和 在 网 络 
影响 ， 提 出 了 一 种 近似 的 算法 。 但 是 作者 为 了 研究 简单 ， 
的 前 提 假 设 网 络 是 静态 且 不 变 的 ,而 
。Fan 等 人 07 针 对 新 浪 微 博 的 消 
门 事 件 的 消息 扩散 拓扑 结构 呈 
户 行 为 对 消息 传播 起 着 重要 作用 
行 了 广泛 的 研究 08& 9]。Michael 等 人 P 
语义 表明 主题 的 相关 性 能 够 很 好 的 通过 转发 传递 ， 通 过 关注 和 
转发 建立 起 Twitter 图 进行 分 析 ， 但 是 
| 户 属性 和 时 间 因 素 。 
通过 对 相关 文献 的 调 
集中 于 静态 拓扑 或 者 考虑 
在 关键 用 户 挖掘 模型 中 引入 用 
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St 


息 传 播 是 一 个 动态 的 


关键 用 户 ， 即 便 他 


1.2.1 时 间 属 性 


于 关键 


户 来 说 ， 仅 仅 比 较 早 


较 早 的 接受 话题 趋势 并 激发 
使 话题 变 得 流行 的 人 。 作 为 一 名 “创新 者 ” 关键 用 户 
的 接受 话题 趋势 。 对 
的 知道 话题 是 不 够 的 ， 


微 博 受众 接受 话题 可 能 与 他 们 


j 户 交互 在 信息 传播 中 扮演 了 非 


常 重要 的 角色 。 关 键 用 
更 多 交互 来 使 话题 变 得 流行 。 
1.2 关键 用 户 的 特征 属性 


其 他 度量 如 入 1 


题 相 关 的 时 间 属 性 。 


的 影响 ， 而 在 所 提 


I 错误 


企 话 题 已 经 流行 之 后 才 接受 微 


1.2.2 用 户 交 互 


拥有 数 以 亿 计 的 粉丝 。 


在 本 文 把 关键 用 
多 交互 使 话题 变 的 》 
须 比较 早 的 接受 话题 趋势 。 对 
知道 话题 是 不 够 的 ， 因 为 其 人 
关 。 对 于 一 个 特定 的 i 
重要 的 角色 。 关 键 用 


专 播 过 程 。Manue 等 


微 博 网 络 中 的 信息 是 


息 扩 散 方 式 进行 研究 ， 
型 或 者 两 级 结构 。 微 博 


， 对 关注 和 转发 行为 进 
开 究 关注 和 转发 链接 的 


微 博 话题 上 可 
中 为 微 博 话题 


于 关键 | 


= 


较 早 的 接受 话题 趋势 并 激发 更 
i 行 的 人 。 作 为 一 名 “创新 者 ” 关键 用 户 必 
户 来 说 ， 仅 仅 比 较 早 的 


微 博 受 众 接 受 话题 可 能 与 他 们 无 
用 户 交 互 在 信息 传播 中 扮演 了 非常 


保持 较 高 交互 的 一 类 人 ， 他 们 


的 PageRank 算法 都 忽略 了 与 话 
用 户 事实 上 根本 没 受 目 标 用 户 
地 计算 了 这 个 影响 。 不 可 以 
十 话题 的 用 户 是 推动 话题 的 


] 户 之 间 的 评 i 
1.3 ”关键 用 户 挖掘 模型 


保持 较 高 交互 的 一 类 人 ， 他 们 通 
话题 变 得 流行 。 在 微 博 中 ， 用 户 交 互 主要 
体现 。 


4 征 形式 化 描述 为 
的 第 个 特征 。 
话题 上 的 用 户 关系 医 


六 集合 内 的 每 个 用 


户 v 之 间 的 转发 关系 。 为 了 挖 扩 


话题 形成 的 关键 用 广 


没有 考虑 交互 双方 的 


民 多 对 关键 用 户 的 研究 和 方 


能 够 比较 好 地 挖 
关键 用 户 挖掘 算法 
在 本 章 主要 讨论 三 个 部 分 : 第 一 个 部 分 讨论 了 对 关键 用 户 


提出 了 Microblog User Rank( MUR ) 方 法 。 实验 结果 表明 该 方法 


遇 性 。 与 之 不 同 ， 本 文 创 


户 交 互 属性 和 时 间 属 性 ， 


用 
-话题 特征 向 量 , 该 向 生 


外 述 特定 话题 K 的 特 和 


文 将 时 间 属 性 融合 到 / 
7 E Nx 令 t(v) 表示 


y{ ,fy fh 1 ;其 
假设 G. 
其 中 N, 为 微 博 话题 的 用 户 集 合 , 该 用 
包含 突 发 话题 上 的 一 个 特征 ， 
生意 的 (u,v) € Bi，(W,v) 表示 用 户 4 与 用 
昌 微 博 话题 演变 过 程 中 促使 突 发 
性 显得 尤为 重要 。 本 
户 关 系 图 模型 的 建立 过 程 中 ， 对 于 用 户 


层 


j 户 行为 的 时 间 属 


本 


j 户 y 发 布 包含 特 行 


昌 特 定 话题 下 的 关键 用 户 。 


; 第 二 个 部 分 讨论 了 微 博 话题 关键 用 户 的 相关 属性 ; 第 


部 分 基于 PageRank 算 济 
了 MUR 挖掘 模型 。 


考虑 结合 了 用 户 的 相关 属性 提 


CE 


E i 的 权 台 


当 用 户 v 发 布 了 微 
为 1; 如果 没 有 ， 则 设 


(和 Vi, ) 表示 微 博 


E fi 的 消息 时 间 (如 果 
户 v 未 发 布 包 含 特征 f 的 消息 ， 则 t(v) =0) 。 令 %(y) 为 用 户 
的 每 个 分 量 51(V); 表示 用 户 v 是 否 发 布 


HR 


其 计算 公式 如 下 : 
Lifi,(v) >0 


0,otherwise 


博 话题 的 特 条 


(1) 


Ef 时 , 把 $1(v); 的 值 设置 


定义 Low 为 u 对 v 关 于 话题 的 特征 f 的 交互 权重 序列 : 


Ju 县 [eww (0)i, lu (Di TCD 让 


其 中 : 7 代表 时 间 窗 口 
口 ; & 和 ?7 关于 话题 上 的 特 行 


窗口 的 长 度 设置 为 1 天 。 在 微 博 话题 中 ，| 


序号 ， 14y(7); 表示 在 第 7 个 时 间 窗 
Ef 的 交互 权 值 大 小 。 本 实验 中 , 时 间 


户 之 间 的 交互 主要 
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录用 稿 


体现 在 评论 与 转发 ， 所 以 定义 fa 如下: 
Repostww(T)i+ 1 
luw)(T)i = a Ro CT att 

其 中 : gag+B=1,。 

这 里 Reposi,,(7); 表 示 在 第 T 个 时 间 窗 口 ， 用 户 转发 v 
关于 微 博 话题 的 特征 三 微 博 的 数量 ，Reposi, (7); 表示 全 部 用 
户 u 转发 关于 微 博 话 题 的 特征 f 微 博 的 数量 。 同 理 ， 
Comment,,(7T); 表 示 在 第 T 个 时 间 窗 口 ， 用 户 4 评论 v 关 于 微 
志 话 题 的 特征 fi; 微 博 的 数量 Comment,, (7); 表示 全 部 用 户 攻 
评论 关于 微 博 话 题 的 特征 f 微 博 的 数量 。 如果 用 户 u 在 第 T 
个 时 间 窗 口 既 没有 评论 也 没有 转发 ， 不 能 简单 地 把 16w070; 设 
为 0。 在 这 里 作 了 Laplacian 平滑 处 理 ， 得 到 平滑 后 的 交互 
权 值 TCD 。 

令 s,(u,v) 为 用 户 关系 向 量 ， 该 向 量 的 每 个 分 量 s,(u,v); 表 
示 用 户 守 与 用 户 ” 针 对 特定 话题 大 的 特征 大 的 边 权 重 ， 其 计算 


Commentw(T)i+ 1 


Comment(T)i + 24° 2 


Kl 


公式 如 下 : 
人 u 
Di loa(D: 
(u,v)i = Tl ,A> 0， (3) 
0 ， otherwise 
其 中 ; A= ti(w)-ti(v) 表 示 用 户 4 与 用 户 v 发 布 特征 f 的 微 博时 


间 间 隔 。Z() 表示 4(w) 所 在 的 时 间 窗 口 的 序号 数 。 当 A < 0, 即 
ti(W) < ti(v)， 用 户 u 发 布 的 特征 三 的 话题 


微 博时 间 要 早 于 用 
v ， 所 以 不 能 认为 用 户 v 向 用 户 4 传递 了 话题 趋势 。 因 此 将 


ss(u,v); 的 值 设置 为 0。 当 A > 0 时 ，s,(4,v); 的 值 通 过 计算 
到 五 W 这 段 时 间 和 v 的 交互 均值 得 出 。 
对 于 任意 的 (wv)eBy 令 有 (u,v) 表示 用 户 4 对 用 户 v 的 影 
响 力 ， 其 计算 公式 如 下 : 
.ao .so 可 
oem 人 GO] 网 [IC ) 人 
基于 PageRank 算法 将 及 (u,v) 规范 化 公式 如 下 : 
Ir (u,v) 
le(u,v) = Be Ty (5) 
令 MUR,(v) 为 微 博 话题 上 的 关键 用 户 权 重 , 其 计算 公式 如 
下 : 
MURA(V) = (1 — d)Dr(v)+d > MURA(o) (ov), (6) 
Le 
其 中 : d(0 < d < 1) 为 调节 因子 ;DD 表示 用 户 在 用 户 关 系 图 上 
的 概率 分 布 。 由 于 话题 间 是 相互 独立 的 ， 对 于 任意 的 v € Ni， 
D.(v) 的 计算 公式 如 下 : 
D.(v)= 07) 


为 了 算法 能 够 收敛 ， 这 里 将 4 的 值 设置 为 0.8。 用 户 的 
MUR 值 越 大 ， 即 为 促使 微 博 话题 形成 的 关键 用 户 。 

算法 的 过 程 见 算法 1。 通 过 输入 开始 节点 的 ID、 目 的 节点 
的 ID 以 及 边 权 重 到 (7) ， 最 终 可 以 得 到 MUR 值 以 及 它们 的 
节点 ID。 
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算法 1 
算法 :MUR 
输入 : “start_id-des_id- I (u,v) 


MUR 算法 表示 


” 和 迭代 次 数 N， 阻 尼 系 数 d 


下 


出 : 排名 -节点 - 权 值 
// 迭 代 N 次 直到 算法 收敛 


for iteration in range(0,N) : 


ES 


foreach node in node set: 
if iteration == 0: 


// 首 次 迭代 所 有 节点 初 值 设 为 1 


node. set_ value (1) 
else: 
// 计 算 节点 的 入 边 影响 力 总 和 
in sum = 0 
foreach in edge in node. in edges: 
in sum = in sum + in edge. value 
end foreach 
// 计 算 当 前 节点 的 MUR 值 
MUR = (1-d) + d * in sum 
// 保 存 当 前 节点 的 MUR 值 


_value (MUR) 
// 计 算 节 点 出 边 权 值 总 和 


out sum = 0 


node. se 


foreach out edge in node. out edges: 
out sum = out sum + out edge. value 

end foreach 

// 更 新 每 条 边 的 权 值 


foreach out edge in node. out edges: 


new edge value=node. value*out edge value/out_ sum 
// 赋 予 每 条 边 新 值 


out edge. set value (new edge value) 


end foreach 
end if 
end foreach node 


end for iteration 


2 ”实验 方案 及 分 析 


所 有 的 实验 都 是 在 Intel 酷 害 17-6700UCPU, 8GB 内 存 , 64 
位 操作 系统 上 实现 。 Graphchi 是 由 CMU( 卡 内 基 梅 隆 大 学 ) 博 士 
AapoKyrolap0 开 发 的 一 套 基于 磁盘 的 图 处 理 系统 ,该 系统 能 有 
效 处 理 边 数目 达 数 十 亿 规模 的 数据 图 。 在 本 实验 室 的 硬件 条 件 
下 ， 基 于 Graphchi 框架 2 开发 出 关键 用 户 的 挖掘 模型 。 
2.1 实验 数据 


PY” 


SG YYGY 收集 了 腾讯 微 博 2016 年 1 月 1 日 到 2016 年 12 
月 31 日 的 3 个 话题 共计 550 万 条 数据 ， 话 题 涉猎 政治 /时 尚 和 
美食 方面 。 同 时 ， 有 超过 100 万 微 博 用 户 以 及 他 们 之 间 的 社交 


关系 ， 详细 田 写 如 表 1 所 示 。 


201804.01453v1 


chinaXiv 


录用 稿 
表 1 实验 数据 集 描述 
Topics 户 原创 数 转发 数 
# 两 会 # 384671 184833 1102337 
#VGirl# 646322 494093 2121899 
# 家 乡 美食 # 318218 305637 1525895 
为 了 下 面 描述 的 方便 ， 用 话题 #1#、#2#、#3# 来 分 别 表示 上 
面 三 个 话题 。 


2.2 实验 评价 


为 了 验证 本 文 算法 


四 


一 


果 比 较 。 相 应 模型 


的 有 效 性 ， 选 择 了 一 些 经 
描述 如 下 : 


模型 进行 结 


PageRank 算法 : 它 是 最 流行 的 链接 分 析 算 法 , 用 于 对 搜索 
引擎 在 用 户 查询 后 返回 的 结果 进行 排序 。 在 微 博 社 区 中 ， 如 果 


一 个 节点 被 许多 其 他 节点 关注 ， 那 么 它 的 PageRank 值 相 对 较 


ay 


| 司 


高 。 然 而 当 一 个 被 大 量 节点 关注 的 用 


户 接 受 的 话题 微 博 在 话题 


流行 趋势 之 后 的 话 ， 当 然 只 能 认为 他 是 信息 的 被 动 接 受 者 ， 而 


不 能 是 


果 可 能 会 不 准 


E 动 话题 流行 的 关键 用 
确 。 


7S 算法 019; 它 是 基于 PageRank 将 时 间 属 性 副 


系 图 


量 仅仅 取决 用 户 


的 排序 方法 。 与 前 者 不 同 ， 


用 户 关系 应 
| 


之 间 是 否 存在 相关 关系 。 


2.2.1 时 间 考 量 


时 间 来 说 对 关键 用 
流行 趋势 之 后 才 接受 话题 的 “关键 用 


两 会 是 2016 年 一 个 非常 重 


为 kwpcacppcc = [# 两 会 #,# 微 博 看 两 会 #, …]， 


过 统计 ， 网 络 图 


计 79 443 个 用 


本 文 计算 网 络 图 


中 至 少 发 布 


PageRank 算法 和 TS 算 济 
易于 给 一 些 过 时 的 
于 都 考虑 了 时 间 属 性 


算法 


本 文 计 算 了 3 种 算法 top-k (k=10,20,30,40，50) 用 
前 发 布 话题 微 博 的 比例 。 


多 


1 可 


PageRank 算法 表现 要 好 。 本 文 将 其 归 因 于 PageRank 算法 1 
晶 一 些 过 时 的 人 。 尤 其 在 关于 时 尚 的 
于 MUR 算法 和 TS 


不 考虑 时 间 


属性 更 容易 控 和 
#2# 话 题 ，PageRank 算法 更 是 表现 不 佳 。 


户 很 高 


用 


结 


户 来 说 非常 重要 ， 因 
让 | 


进行 比较 ， 


局 考虑 了 时 间 属 性 
发 布 的 微 博时 间 间 隔 对 于 挖掘 关键 


户 并 不 精确 ， 无 法 得 出 其 他 人 接受 话题 与 所 挖掘 的 关键 用 户 


户 ， 所 以 这 种 方法 挖掘 出 来 的 结 


kh 合 到 用 户 关 
Ly 但 是 计算 


= 
态 听 


根据 上 述 提出 的 算法 ， 


为 挖掘 一 个 在 话题 
意义 的 。 全 国 
要 的 话题 。 根 据 话题 的 特征 化 定义 
共计 11 个 话题 特征 。 
包括 38 4671 个 节点 以 及 2 443 924 条 有 向 
边 。 全 国 两 会 这 个 话题 讨论 的 峰值 出 现在 2016 年 3 
户 发 布 118 786 条 微 博 。 


经 


月 6 


日 , 共 


一 个 话题 特征 的 关键 用 


户 权 值 ， 与 


发 现 经 典 


PageRank 算法 


的 权 值 ,而 7TS 算法 和 本 文 的 MUR 


， 所 以 表现 较 好 。 为 了 


说 明 这 个 ， 


果 如 图 1 所 示 。 


户 在 峰值 之 


知 ， 在 任 一 话题 TS 算法 和 MUR 算法 都 比 


算法 都 考虑 


别 。 


实验 来 进 


时 间 
但 是 为 了 说 明 满 足 时 间 条 人 
户 并 非 促使 特定 话题 形成 的 关键 用 
步 说 明 。 


时 性 ， 导 


致 实验 结果 看 起 来 好 像 没 有 太 大 差 


F 的 7S 挖掘 模型 挖掘 出 来 的 用 
户 ， 在 接 下 来 的 部 分 做 了 些 


0.2 


Top-k 用 户 在 话题 流行 之 前 发 布 话题 微 博 的 比例 
S | 
: 


-0- MUR 
-人 娘 PR 
一 一 TS 
0.0 二 T T 
社 P 分 RD 分 
Top-k 用 户 
(a) 话 题 1 
##2## 
1.0 


0.6 ] 


Top-k 用 户 在 话题 流行 之 前 发 布 话题 微 博 的 比例 


| 


02] -oo- MUR 
-PR 
一 一 TS 
0.0 二 T T 
3 PDP 全 内 作 
Top-k 用 户 
(b) 话 题 2 
##3## 
1.0 
—o— MUR 
对 -PR 
量 一 TS 
起 
时 一 
如 
区 0.6 
人 
中 
和 0.4] 
各 
村 
Q 
区 0.21 
1 
号 
0.0 二 T T 
仿 P 信 办 人 
Top-k 用 户 
(c) 话 题 3 
图 1 不 同 算法 Top-k 用 户 中 在 峰值 之 前 接受 话题 的 比例 
2.2.2 用 户 交 互 
时 间 来 说 对 关键 用 户 来 说 非常 重要 ， 因 为 挖掘 一 个 厂 


流行 趋势 之 后 才 接受 话题 的 “关键 用 
户 话题 影响 主要 通过 


中 进行 扩散 。 评 论 可 以 影响 信 ， 


博 中 ， 用 


姑 传 播 的 
程度 上 能 反映 关键 用 


度 。 本 文中 认为 用 


FE 话题 


他 的 粉丝 的 讨 


户 微 博 被 讨 


户 ” 是 毫 无 意义 的 。 在 微 
EF 论 和 转发 向 网 络 图 
息 传播 的 深度 ， 转 发 可 以 影响 信 
F 论 数 和 被 转发 数 一 定 
户 的 影响 力 ， 所 以 计算 了 top-k(k 
=10,20,30,40) 用 户 微 博 直 接 被 评论 量 和 被 转发 量 。 


实验 结果 展 
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现 如 图 2 所 示 。 2.2.3 社会 关系 影响 力 
令 IFR.(v) 去 衡量 top 用 户 影响 其 社会 关系 的 能 力 。 其 公式 
评论 计算 如 下 : 
MUR 
40000 | 上 s IFR, (») 芝 NK, Ce (8) 
Raoooo | 其 中 NIK.(v) 表示 top 用 户 的 粉丝 中 发 布 微 博时 间 晚 于 top 
到 用 户 的 数量 ， TNF(v) 表示 这 些 用 户 的 全 体 粉丝 数 。 
Ca Top-50 用 户 平均 影响 粉丝 率 如 表 2 所 示 。 
ee 
600000 1 = 
6 


转 


Top-10 用 户 微 博 全 


Top-k 用 户 500000 ] 
吧 400000 ] 
40000 ] 
mm MUR 300000 j 
TS 
200000 -| 
30000 ] 
十 100000 1 
Eo 
殷 20000 ] 0 


居 
捧 本 全 和 2## 天 3## 
起 Top-10 用 户 
可 
10000 j 图 3 不 同 算法 Top-10 用 户 在 微 博 网 络 全 局 转发 量 的 总 和 
表 2 top-50 用 户 平均 影响 粉丝 率 
0 


40 


Topk 用 户 Topics MUR(%) TS(%) PR(%) 
图 2 不 同 算法 间 Top-k 用 户 直接 评论 量 总 和 与 直接 转发 量 的 总 和 a 机 Wey WA 
#2# 0.134 0.113 0.105 
如 图 2 所 示 ， 相 比较 其 他 两 个 算法 ， 发 现 用 户 之 间 的 交互 #3# 0.085 0081 0.070 
在 MUR 算法 上 得 到 了 更 大 的 体现 。 很 明显 ，MUR 挖掘 的 用 户 
在 考虑 交互 的 情况 下 对 网 络 中 的 与 论 产生 更 加 积极 的 影响 ， 促 从 表 2 中 可 以 知道 ，MUR 算法 的 top 用 户 的 IFR 值 比 
使 更 多 用 户 参 与 评论 与 转发 。 同 时 想 知 道 满足 时 间 条 件 的 75 PageRank 算法 以 及 TS 算法 都 要 高 ， 将 其 归 因 于 PageRank 算 


—— 


挖掘 模型 挖掘 出 来 的 关键 用 户 是 否 促 使 了 微 博 特 定 话题 形成 。 法 挖掘 了 “过 时 ”的 用 户 和 TS 算法 忽略 了 用 户 交互 的 影响 。 这 
在 top-20 的 用 户 中 , 从 影响 信息 传播 广度 的 转发 数 上 来 看 ,TS 也 表明 了 高 交互 性 的 MUR 用 户 更 能 影响 其 社会 关系 ， 从 另 一 
算法 的 总 数 比 MUR 算法 少 ， 甚 至 比 PageRank 算法 还 低 ， 把 原 ” 个 方面 也 表明 本 文 考虑 关键 用 户 属性 的 正确 性 。 

因 归 结 于 7S 算法 考虑 的 网 络 图 中 边 的 权 值 仅仅 取决 于 时 间 间 ”2.2.4 算法 相关 性 
隔 。 所 以 只 能 认为 TS 算法 挖掘 出 来 的 用 户 看 起 来 更 像 个 “创新 本 文 尝试 研究 MUR 、PageRank 、TS 这 三 种 算法 产生 的 关 
者 ” 而 不 能 被 认为 是 关键 用 户 。 限 于 篇 幅 ， 本 文 在 这 里 仅仅 尾 键 用 户 列表 的 相关 性 。Kendall's 7 是 数学 统计 中 一 个 常用 的 系 


示 了 话题 1 用 户 被 评论 与 被 转发 的 情况 ， 在 另外 两 个 话题 中 ， 数 。z 的 取 值 区 间 是 [-1 1]。 如 果 两 个 用 户 列表 一 致 ， 则 Tt = 1; 
MUR 算法 依然 比 其 他 两 个 算法 表现 更 好 。 两 个 互 逆序 列 的 Kendall’'s 1 系数 为 -1。7? 的 值 越 大 , 表明 更 大 的 
本 文 算法 致力 于 发 现 网 络 图 中 的 一 些 节点 ， 这 些 节点 比较 正 相 关 性 。 
早 得 接受 话题 ， 而 且 有 能 力 影响 其 他 节点 产生 更 多 交互 ， 最 终 ee 
了 话题 流行 。 为 了 进一步 说 明 这 个 问题 ， 本 文 计算 了 top-10 的 
用 户 话题 微 博 的 全 局 转发 量 。 实 验 结果 如 图 3 所 示 。 MUR vs. TS 0. 4286 0. 4017 0. 4501 
如 图 3 所 示 , 在 涉及 政治 .时 尚 和 美食 领域 的 话题 时 , MUR MURw PR 0 5187 Wy We 
值 高 的 top 用 户 可 以 通过 影响 他 们 的 粉丝 产生 更 多 的 用 户 交 互 ， 
从 而 推动 话题 的 形成 与 发 展 。 图 3 也 意味 着 更 多 的 人 接受 话题 表 3 展现 了 MUR 算法 与 PageRank 算法 及 TS 算法 之 间 挖 
是 因为 MUR 算法 挖掘 的 top 用 户 。 更 多 的 粉丝 通过 转发 去 扩散 ” ” 掘 用 户 之 间 的 r. 值 以 发 现 本 文 算法 与 其 他 两 种 算法 的 结果 


top 用 户 的 影响 ， 最 终 推动 了 微 博 话 题 的 形成 。 不 是 非常 相似 ， 这 也 表明 本 文 算法 在 挖掘 关键 用 户 方面 的 实验 


结果 与 其 他 算法 相 比 有 一 定 的 区 分 度 和 不 可 替代 性 。 


3 ”结束 语 


T 


本 文 定义 的 关键 用 户 是 比较 早 的 接受 话题 趋势 并 激发 更 多 
交互 使 话题 变 得 流行 的 人 。 通 过 将 时 间 属 性 和 ) 


户 交 互 结合 


提出 了 一 种 有 效 的 算法 去 挖掘 微 博 话题 的 关键 用 户 。 本 文 做 了 
一 系列 的 实验 去 验证 本 文 模型 ， 实 验 结果 表明 ， 本 文 算法 在 时 
间 性 和 用 户 影 响 角度 优 于 先前 算法 。 考 虑 到 用 户 交 互 存在 其 他 
的 形式 ， 未 来 计划 进一步 研究 交互 作用 ， 从 而 建立 一 个 更 加 准 
确 的 模型 。 
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